GeneDock HG 手册

Part 1 产品介绍

1. GeneDock HG 人全基因组标准化分析服务用途

GeneDock HG使用BWA、Sentieon软件,对全基因组数据,进行从fastq到vcf的分析(包含SNV和INDEL)。

Sentieon DNAseq 是一款类似于GATK (The Genome Analysis Toolkit) 的软件,主要用于二代测序数据的变异分析,包括SNV和INDEL。GeneDock的生信团队与数据计算团队共同努力,在数据传输优化、分析算法选择、计算资源选型等方面都进行了优化,并对分析关键步骤做了分布式处理,在保证同GATK鉴定结果准确度一致的基础上,大大降低了用户的分析成本,缩短了运行时间。

Sentieon是一款类似于GATK (The Genome Analysis Toolkit) 的软件,主要用于二代测序数据的变异分析,包括SNP和INDEL。Benchmark测试结果 (https://peerj.com/preprints/1672/)显示,Sentieon软件在保证同GATK 3.3软件鉴定结果准确度一致的基础上,比GATK 3.3速度提升了约20倍(相同的硬件设备)。
且该软件获得
Winner, precisionFDA Consistency Challenge
Winner, precisionFDA Truth Challenge

更多信息:Sentieon官方网站:《 Sentieon DNAseq, for consistent and confident germline variant detection》

2. 整体步骤:

整体可分为4个部分:

1. 序列比对(Mapping):使用trimmomatic软件进行前处理,使用bwa mem进行比对,使用samtools对bam文件进行排序、格式转换等操作。

2. Bam文件前处理(Bam processing):使用Sentieon软件做去重复序列(rmdup)、INDEL Realignment(realign)、Base quality score recalibration(bqsr)。

3. SNV和INDEL检测(SNP and INDEL calling):使用Sentieon软件的HaplotypeCaller(hc)对SNP和INDEL同时进行检测。

4. 变异优化(Callset Refinement):使用Sentieon软件的VQSR对varaint quality score做矫正(此步骤SNP和INDEL分别进行)。

5. 对原始序列 (FASTQ) 和比对后序列 (BAM) 的基本计量参数进行统计:原始序列 (FASTQ)统计包括Reads数目、N所占比例、低质量碱基的比例、Q20、Q30、与Adaptor相关的reads比例,以及质量值和GC含量图等。比对后序列 (BAM)的统计包括:靶标区域所占比例、平均测序深度、重复区域比例、比对率、不同X数reads所占比例,以及目标区域测序深度图等,具体图表格式可以参考GeneDock 博客

流程中步骤与GATK的Best Practices基本一致。

关于其中使用的knowsites输入文件也与GATK软件一致,可以参考这个链接

【运行时间】

2016年12月29日genedock_wym测试45.00GB+44.94GB的fastq.gz文件。北京域:4.5小时。
由于全基因组原始数据较大,因此给数据分析带来了很大的挑战。
本工作流利用“fastq按行拆分、bam按染色体分组拆分”的原理,可以大大缩短运行时间。
本流程中bam文件的6个染色体分组,具体情况如下(以hg19的染色体名为例):

  • 第0组:chr1和chr2
  • 第1组:chr3、chr4和chr5
  • 第2组:chr6、chr7和chr8
  • 第3组:chr9、chr10、chr11和chr12
  • 第4组:chr13、chr14、chr15和chr16
  • 第5组:chr17、chr18、chr19、chr20、chr21、chr22、chrX、chrY和chrMT

【准确性评估】

本流程步骤与GATK的GATK best practice基本一致,准确性评估请参考这个链接

【注意事项】

  1. 本流程需要是双端测序。
  2. 流程中会使用GATK官方推荐的reference、knowsites输入文件,下载自Broad的FTP
  3. 根据我们的经验,此全基因组流程中VQSR步骤要求至少100M的vcf输入,因此,我们建议全基因组的fastq.gz文件要在30G*2以上。10G*2的数据,请不要使用此工作流。
  4. 如果输入fq文件是多个lane的,请注意read1和read2的顺序要一一对应。

关于此流程有任何问题,请您随时与我们的工程师联系。

Part 2 GeneDock HG 操作教程

1.查看工作流详情:进入后台后,点击左侧工具栏中的工作流,在我的工作流标签中选择public,可以看到WGS_Germline_BWA_Sentieon_ContainRef_stat工作流,点击“详情”,查看该工作流的介绍,包括:【概述】、【基本背景】、【整体步骤】、【运行时间】、【准确性评估】、【注意事项】等(如图1,图2);


图-1

(图1)



图-2
(图2)

2.运行工作流:熟悉工作流的信息后,重复第一步骤,点击“运行”,进入到运行工作流界面(如图3),为了方便后续查找任务,可以修改“任务名称”;
图-3

(图3)

3.设置输入文件:1、双端测序结果文件;2、adaptor序列文件。点击输入文件条中对应的文件夹符号,可以看到对应的数据选择框,其中最上边可以看到对应的文件格式(如fq,fastq,gz),在您需要的文件前面操作栏选择“选取”,然后就可在输入文件条中看到选定的输入文件,所有输入文件都选择完毕后,点击“下一步”(如图4、图5);

图4

(图4)

图5
(图5)

4.设置输出文件:输出文件已经自动加载默认路径和文件名称,可以按照项目的目录情况自行修改,如无需要可以不做修改,所有输出文件都选择完毕后,点击“下一步”(如图6);



图6

(图6)



5.设置参数:系统中会绑定默认参数,且会标明参数属于的工具名称,如有需要修改参数,将鼠标放置参数名称上可查看参数的说明,选择参数后可直接修改(如图7);



图7

(图7)

6.预览及运行工作流:所有参数都设置完毕后,可以点击预览,确认前面的所有设置,确认好后点击‘运行任务’,开始运行工作流(如图8);




图8

(图8)

7.查看任务:几分钟后可以点击左侧工具栏中的“任务/报告”查看相应工作流的运行状态。为了方面查看任务,用户可以按照任务创建和运行状态等筛选。另外,对于不需要的任务,可以删除该任务。如(如图9):




图9

(图9)

点击所要查询的任务,可以查看“参数”,“日志”,“报告”以及“相关文件下载和预览”。点击“参数“ ,可以看到输入,输出和相关参数,(如图10):




图10

(图10)

点击”日志“,可以看到每一步的完成状态。点击APP名称,可以看到部分输出日志,点击“下载日志”可以下载查看完整的输出日志(如图11);



图11

(图11)

注:目前的工作流没有设置报告模板,因而报告不可查看,所以只能查看“相关文件下载和预览”。

点击“相关文件下载和预览”,可以看到任务的结果文件。对于文本文件和png等图文件,支持在线预览和下载,超过100M的文件,建议按照下文使用客户端下载(如图12)。



图12

(图12)

8.数据结果的查看和下载:点击左侧工具栏中的“数据”,选定对应的任务运行前设定的输出路径,进入任务输出路径后,可以看到结果文件,并且使用提供的完整路径,使用客户端进行下载(如图13,图14)。




图13

(图13)

图14
(图14)

Part 3 参数解释

1. 工具:GD-toolkit_mapping_6-chromsome-groups_ContainRef

参数 软件 默认值 解释
sliding_window Trimmomatic 4,15 Windows的size是4个碱基,其平均碱基质量小于15,则切除
leading Trimmomatic 3 切除首端碱基质量小于3的碱基或者N
mark_short_split_hits_as_secondary Bwa-mem Yes 加入此参数用于将shorter split hits 标记为次优,有利于兼容 Picard、GATK
head_crop Trimmomatic 0 切除reads开始指定数目碱基
crop Trimmomatic 10000 保留reads到指定的长度
to_phred64 Trimmomatic False 将碱基质量转换为pred64格式
illumina_clip Trimmomatic 2,30,10 切除adapter序列:允许的最大mismatch数;palindrome模式下匹配碱基数阈值;simple模式下的匹配碱基数阈值
to_phred33 Trimmomatic False 将碱基质量转换为pred33格式
read_group Bwa-mem sample read group中sample名称,@RG\tID:{{parameters.read_group}}\tSM:{{parameters.read_group}}\tPL:illumina\tLB:lib
minlength Trimmomatic 36 最小的reads长度
phred33 Trimmomatic False 设置碱基的质量格式为phred33
trailing Trimmomatic 3 切除尾端碱基质量小于指定值的碱基
refname Bwa-mem hg19 流程中使用的reference(可选hg19或者b37),reference文献下载自Broad的FTP

2. 工具:samtools merge bam*(由于本流程分6份染色体,因此有6个bam0-5)

参数 软件 默认值 解释
sort_by_read_names samtools merge False 使输入的比对序列按照read的名字来排序,而不是染色体坐标
attach_rg_tag samtools merge False 给每个比对添加一个 RG 标签,标签的值是通过文件名来推测的
combine_PG samtools merge True 把 PG 标签和 colliding IDs 结合,而不是添加一个后缀去区分它们
combine_RG samtools merge True 把 RG 标签和 colliding IDs 结合,而不是添加一个后缀去区分它们

3. 工具:sentieon_metrics

参数 软件 默认值 解释
vqsr_omni sentieon VQSR 1000G_omni2.5.hg19.sites.vcf omni文件名称(可选1000G_omni2.5.hg19.sites.vcf或者1000G_omni2.5.b37.vcf),使用GATK官方推荐的knowsites输入文件,下载自Broad的FTP
thread sentieon VQSR 8 线程数
vqsr_hapmap sentieon VQSR hapmap_3.3.hg19.sites.vcf hapmap文件名称(可选hapmap_3.3.hg19.sites.vcf或者hapmap_3.3.b37.vcf),使用GATK官方推荐的knowsites输入文件,下载自Broad的FTP
refname sentieon VQSR hg19 流程中使用的reference(可选hg19或者b37),reference文献下载自Broad的FTP
vqsr_Mills sentieon VQSR Mills_and_1000G_gold_standard.indels.hg19.sites.vcf Mills文件名称(可选Mills_and_1000G_gold_standard.indels.hg19.sites.vcf或者Mills_and_1000G_gold_standard.indels.b37.vcf),使用GATK官方推荐的knowsites输入文件,下载自Broad的FTP
vqsr_1000G_indel sentieon VQSR 1000G_phase1.indels.hg19.sites.vcf 1000G_indel文件名称(可选1000G_phase1.indels.hg19.sites.vcf或者1000G_phase1.indels.b37.vcf),使用GATK官方推荐的knowsites输入文件,下载自Broad的FTP
vqsr_1000G_snp sentieon VQSR 1000G_phase1.snps.high_confidence.hg19.sites.vcf 1000G_snp文件名称(可选1000G_phase1.snps.high_confidence.hg19.sites.vcf或者1000G_phase1.snps.high_confidence.b37.vcf),使用GATK官方推荐的knowsites输入文件,下载自Broad的FTP
vqsr_dbsnp sentieon VQSR dbsnp_138.hg19.vcf dbsnp文件名称(可选dbsnp_138.hg19.vcf或者dbsnp_138.b37.vcf),使用GATK官方推荐的knowsites输入文件,下载自Broad的FTP1

4. 工具:sentieon_me_rm_indel_bqsr_hc(共6个)

参数 软件 默认值 解释
knowsites_dbsnp sentieon variant caller dbsnp_138.hg19.vcf dbsnp文件名称(可选dbsnp_138.hg19.vcf或者dbsnp_138.b37.vcf),使用GATK官方推荐的knowsites输入文件,下载自Broad的FTP
thread sentieon 8 线程数
emit_conf sentieon variant caller 30 在vcf结果文件中,低于指定值的位点则不进行报告
call_conf sentieon variant caller 30 设定variant位点的置信阈值,低于该阈值则为low quality
refname sentieon hg19 流程中使用的reference(可选hg19或者b37),reference文献下载自Broad的FTP
knowsites_IndekRealigner sentieon Indel realigner Mills_and_1000G_gold_standard.indels.hg19.sites.vcf&
1000G_phase1.indels.hg19.sites.vcf
Indel realigner 步骤knowsites输入文件名称(可选hg19或者b37的相关文件,多个文件名称使用&连接),使用GATK官方推荐的knowsites输入文件,下载自Broad的FTP